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摘要 :全 天 相机 拍摄 的 全 天 空地 基 云 图 能 够 实时 反应 当地 的 云 量 信息 ， 而 云 量 是 天 文选 
址 时 需要 首先 考虑 的 因素 之 一 。 在 云 量 检测 工作 前 对 全 天 空地 基 云 图 根据 图 像 质量 ,应 用 背 
景 等 因素 进行 自动 化 分 类 ,实现 鲁 棒 性 高 、 适 应 性 强 的 自动 化 分 类 算法 ， 将 减少 图 像 分 类 过 
程 中 的 人 工 成 本 ,为 天 文选 址 提供 重要 帮助 。 本 文 实现 了 一 种 基于 卷 积 神 经 网 络 分 类 模型 的 
全 天 空地 基 云 图 自动 化 分 类 方法 ,采用 雪 龙 号 科 考 船 搭载 的 全 天 相机 数据 进行 了 分 类 模型 训 
练 ,并 使 用 中 科 院 云南 天 文 台 丽 江 观 测 站 全 天 相机 数据 进行 了 验证 , 均 取 得 了 较 好 的 分 类 效 
果 ， 并 证 明 该 方法 具有 良好 的 可 迁移 性 。 
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1， 研 究 背景 与 意义 

对 于 天 文选 址 ， 云 量 是 首先 需要 考虑 的 因素 之 一 。 天 文 观测 目标 发 射出 的 光线 到 达 地 基 
望远镜 的 终端 时 ， 会 受到 大 气 中 云 的 散射 和 吸收 ， 大 气 中 云 量 的 多 少 ， 决 定 了 观测 数据 质量 
的 好 坏 ， 从 而 决定 了 天 文 可 用 时 间 和 天 文 观 测 可 视 域 。 然 而 ， 现 在 对 云 的 观测 还 是 以 人 工 观 
测 为 主 ， 观 测 结果 受 人 为 主观 因素 影响 较 大 定 ， 因 此 ， 实 现 云 量 的 自动 检测 尤为 重要 。 
全 天 相机 是 实现 云 量 自动 检测 的 主要 仪器 。 全 天 相机 主要 由 电荷 耦合 元 件 (Charge 
Coupled Device，CCD) 和 鱼 眼 镜头 组 成 , 通过 全 天 相机 拍摄 的 全 天 空地 基 云 图 具有 很 高 的 空 
间 和 时 间 分 辨 率 ， 其 分 析 结 果 能 够 准确 反映 当地 的 云 量 覆盖 与 变化 特征 , 适合 用 于 全 天 云 量 
fes E Mu? 
全 天 相机 在 拍摄 地 基 云 图 时 ， 难 免 会 受到 时 间 、 天 气 、 光 照 等 因素 的 影响 ， 导 致 获取 图 
像 的 内 容 质量 有 所 差异 , 此 外 针对 不 同时 段 ( 如 白天 与 黑夜 ) 的 图 像 , 云 量 检测 方法 也 不 同 。 
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26 ”因此 在 进行 云 量 检测 之 前 ， 去 除 不 可 靠 图 像 ( 雨 露 雪 、 过 曝光 ) ， 区 分 图 像 场景 (夜晚 或 者 
27 ”白天 ) ， 以 自动 化 统计 晴天 数 与 晴 夜 数 ， 是 云 量 自动 分 析 工 作 的 基础 。 
28 根据 上 述 需 求 ， 本 文 根 据 图 像 质 量 、 应 用 场景 等 因素 对 全 天 空地 基 云 图 做 了 详细 的 类 别 
29 ”划分 , 并 基于 部 署 在 雪 龙 号 上 的 全 天 相机 获取 的 地 基 云 图 数据 集 , 进行 了 基于 卷 积 神经 网 络 
30 (Convolutional Neural Network, CNN) 是 的 分 类 模型 训练 ， 提 出 了 全 天 空地 基 云 图 的 自动 
31 ”化 分 类 处 理 方法 ,并 使 用 中 国 科学 院 云南 天 文 台 丽 江 观 测 站 全 天 空地 基 云 图 数据 集 对 模型 进 
32 ” 行 了 验证 , 同样 取得 了 较 好 的 分 类 效果 , 证 明了 模型 拥有 较 强 的 泛 化 性 能 ， 适用 于 天 文选 址 
33 ”时 全 天 空地 基 云 图 的 分 类 。 
34 本 文 首先 阐述 了 全 天 空地 基 云 图 分 类 的 背景 与 意义 ;第 二 部 分 介绍 了 模型 训练 所 采用 的 
35 ”数据 集 及 分 类 标准 ; 第 三 部 分 对 现 有 的 卷 积 神经 网 络 模型 以 及 文中 使 用 的 分 类 模型 进行 了 详 
36 AMHR: 第 四 部 分 主要 介绍 了 模型 的 训练 过 程 ; 第 五 部 分 描述 了 丽江 数据 在 模型 上 的 验证 效 
cn 37 ” 果 并 做 了 详细 的 分 析 ; 第 六 部 分 总 结 与 展望 ,分析 了 模型 的 优点 与 不 足 , 并 提出 了 改进 方向 。 
~] ”38 2 数据 集 以 及 分 类 标准 
39 全 天 相机 拍摄 的 全 天 空地 基 云 图 种 类 复杂 多 样 ， 质 量 也 不 尽 相 同 。 使 用 大 量 不 同 且 有 共有 
40 ”代表 性 的 训练 数据 能 够 提高 分 类 模型 的 泛 化 能 力 ， 使 模型 在 新 数据 集 上 拥有 较 好 的 适应 性 ， 
41 ”从 而 实现 任意 地 区 全 天 空地 基 云 图 的 自动 化 分 类 , 为 云 检测 自动 化 系统 的 实现 和 天 文选 址 提 
42 XH. 
43 2. 雪 龙 号 极地 科 考 船 全 天 相机 数据 
44 雪 龙 号 是 我 国 的 极地 综合 科学 考察 专用 船 。2017 年 7 月 20 日 雪 龙 号 从 上 海 出 发 ，7 月 
45 31 日 进入 北极 圈 ，10 月 9 日 返回 上 海 长 江口 水 域 ， 共 航行 20590 海里 ， 成 功 完成 了 第 8 次 
46 ”北极 科学 考察 任务 。 搭 载 在 雪 龙 号 上 的 全 天 相机 每 五 分 钟 采集 一 次 数据 , 航行 期 间 共 获得 数 
47 据 89.8GB， 共 13484 张 ， 图像 单 张 分 辨 率 为 1000*625。 
48 航行 沿途 经 过 区 域 广 ， 环 境 因素 复杂 ， 获 取 的 全 天 影像 数据 类 型 丰富 ， 和 覆盖 性 强 ， 很 适 
49 ”合作 为 模型 的 训练 数据 。 
50 ”2.2 分 类 标准 
51 根据 应 用 场景 , 将 云图 划分 为 夜晚 (dark) ,雨露 雪 (rain snow) ， 过 曝光 (overlight) ， 
52 ”了 晴空 (bluesky) ， 少 云 (cloudimage) ， 多 云 (overcast) 6 类。 
53 昼夜 会 给 图 像 带 来 不 同 的 特性 ， 研 究 的 内 容 和 方法 也 往往 不 同 。 云 点 识别 时 ， 对 于 白天 
54 ”拍摄 的 全 天 空地 基 云 图 ， 往往 通过 图 像 可 见 光 波段 的 性 质 来 确定 有 云 点 外 ,夜间 则 将 测 得 的 
55 ” 星 场 图 像 与 计算 的 星象 图 作 比 较 , 确定 哪些 已 知 的 明亮 恒星 被 云 遮 盖 , 从 而 识别 云 中 ,因此 ， 
56 昼夜 图 像 分 类 将 便于 之 后 的 科学 研究 ， 我 们 将 夜晚 拍摄 图 像 划分 为 一 类 ， 如 图 所 示 。 
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对 于 白天 图 像 我 们 做 了 更 为 细致 的 划分 。 拍 摄 过 程 


图 1 夜晚 类 典型 图 像 


Figl Typical image of dark 


如 雨露 雪 对 镜头 的 覆盖 , 严重 影响 成 像 质 量 , 使 得 这 部 分 图 像 很 难 应 用 
风 啊 的 图 像 划 分 为 单 


作 。 为 此 将 受 十 器 


Ph ,镜头 往往 会 受到 恶劣 天 气 的 影响 ， 


独 


N 
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类 。 雨露 雪 类 S 


于 之 后 的 云 量 检 测 工 


一 类 , 可 区 分 出 更 
认为 该 图 片 属 于 过 曝光 类 。 
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图 2 雨露 雪 类 典型 图 像 


Fig2 Typical image of rain snow 


正午 光线 充足 ， 在 强 光 照射 下 拍摄 图 片 容易 发 生 过 曝光 的 现象 ， 将 这 类 数据 划分 为 单独 


有 研究 价值 的 全 天 空 云图 数据 。 当 曝光 面积 大 于 全 天 图 


过 曝光 类 典型 图 


像 如 图 3 所 示 。 


图 3 过 曝光 类 典型 图 像 


Fig3 Typical image of overlight 


在 去 除 掉 质 量 较 差 的 图 像 后 ， 根 据 云 量 的 多 少将 剩余 图 


只 三 分 之 一 时 ， 


像 划 分 为 三 类 ， 上 晴空 类 、 多 云 类 


和 少 云 类 。 上 晴空 不 含 云 ， 整 个 天 空 儿 乎 完全 被 云 履 盖 定 义 为 多 云 ， 其 他 则 均 认为 是 少 云 。 一 


些 数据 在 太阳 所 在 位 置 会 出 现 过 
与 区 域 形状 确定 该 


为 多 云 类 ， 图 6 为 少 云 类 。 


区 域 是 太阳 过 曝 还 是 云 。 各 类 别 典 型 代 
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BE, 出现 的 白色 区 域 较 难 与 云 区 分 , 此 时 根据 数据 拍摄 时 间 
KM. EA 为 晴空 类 , 图 5 
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78 图 4 晴空 类 典型 图 像 
79 Fig4 Typical image of bluesky 
80 

81 图 5 多 云 类 典型 图 像 
82 Fig5 Typical image of overcast 
83 

84 

85 图 6 少 云 类 典型 图 像 
86 Fig6 Typical image of cloudimage 


87 在 图 像 中 选取 6160 张 ,对 其 进行 了 人 工分 类 及 标注 ,标注 数据 具体 数量 为 :overlight(1124 
88 ” 张 ) overcast (1128 张 ) 、rain_snow (1117 张 ) 、cloudimage (1115 张 ) 、dark (1119 
89 张 ) bluesky (557 张 ) 。 

90 ”2.3 丽江 天 文 观测 站 全 天 相机 数据 

91 中 国 科 学 院 云 南天 文 台 丽 江 观 测 站 是 我 国 南方 重要 的 天 文 观测 基地 。 目 前 台 站 里 拥有 多 
92 GAWE: 2.4 米 望 远 镜 、1.8 米 望远镜 、BOOTES-4 和 TAT 等 ， 丽 江天 文 观测 站 全 天 相机 
93 ”为 这 些 望远镜 的 夜晚 观测 提供 实时 的 云 量 信 息 , 在 天 文 观测 中 起 着 必 不 可 少 的 辅助 作用 。 本 
94 ”研究 中 采用 丽江 天 文 观测 站 全 天 相机 数据 进行 分 类 模型 的 验证 。 
95 数据 集 选 取 2016 年 11 H 26 H 8] 2016 Æ 12 H 26 日 期 间 丽 江 观 测 站 全 天 相机 拍摄 的 全 
96 天空 云图 数据 ， 共 5208 张 ， 单 张 图 像 分 辨 率 为 720*480。 按照 2.2 节 中 描述 的 分 类 标准 对 丽 
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97 ” 江 数 据 进行 了 人 工分 类 ， 用 于 验证 模型 在 其 他 全 天 空地 基 云 图 数据 全 
98 
99 3. 分 类 模型 介绍 
100 卷 积 神经 网 络 在 图 像 识别 领域 拥有 着 巨大 的 优势 ， 它 可 以 直接 使 用 图 像 的 像素 点 作为 输 
101 ”入 ,通过 训练 来 提取 最 有 效 的 特征 ， 并 且 对 缩放 、 平 移 、 旋 转 等 畸变 具有 不 变性 ， 有 着 很 好 
102 ”的 泛 化 效果 。 而 卷 积 的 权 值 共享 结构 ， 可 以 大 幅 减 少 神经 网 络 的 参数 量 ,在 防止 过 拟 合 的 同 
103 ”时 又 降低 了 神经 网 络 模型 的 复杂 度 。 为 此 本 研究 对 卷 积 神经 网 络 中 经 典 模型 LeNet5 和 
104 ”AlexNet 进行 了 改进 ， 将 其 应 用 至 全 天 相机 数据 的 分 类 中 。 
105 3.1 LeNet5 5 AlexNet 
106 LeNet5/? Æ Yann LeCun 在 1998 年 设计 的 用 于 手写 数字 识别 的 卷 积 神经 网 络 模型 ， 是 最 
107 ” 早 的 卷 积 神经 网 络 模型 之 一 。LeNet5 拥有 如 下 特点 : 每 个 卷 积 层 包含 三 个 部 分 ， 分 别 为 卷 
v- 108 积 、 池 化 和 非 线性 激活 函数 。 模 型 使 用 卷 积 提取 空间 特征 ， 并 使 用 平均 池 化 层 进行 降 采 样 。 
二 109 ”使 用 双 曲 正切 或 s 型 激活 函数 ， 并 以 多 层 感知 机 (MLP)》 作 为 最 后 的 分 类 器 ， 且 模型 各 层 
110 ”之 间 采 用 稀 玻 连接 以 减少 计算 的 复杂 度 。 该 模型 的 许多 特性 至 今 仍 在 当前 主流 的 卷 积 神经 网 
111 — 络 中 被 使 用 。 
112 AlexNet 中 则 是 由 Hinton 和 他 的 学 生 Alex Krizhevsky 设计 , 它 将 LeNet 的 思想 发 扬 光 大 ， 
113 ”并 把 CNN 的 基本 原理 应 用 到 了 更 深 更 宽 的 网 络 中 。 在 2012 年 的 ImageNet 图 像 分 类 竞赛 中 
114 ”AlexNet 以 显著 优势 获得 冠军 。 
115 AlexNet 成 功 的 将 ReLU 作为 激活 函数 , 其 效果 在 较 深 的 网 络 中 超过 了 常用 的 Sigmoid PR 
116 ” 数 。 模 型 训练 时 Dropout 方 法 的 使 用 减轻 了 模型 过 拟 合 的 现象 ,结合 使 用 重 辣 的 最 大 池 化 避 
117 ”和 免 了 平均 池 化 的 模糊 化 效果 。 并 提出 将 训练 步 长 小 于 池 化 核 的 尺寸 以 提升 特征 的 丰富 性 。 同 
118 ”时 随机 地 从 256*256 的 原始 图 像 中 截取 224*224 大 小 的 区 域 , 最 大 限度 扩大 了 数据 量 , 减轻 
119 ”模型 过 拟 合 现 象 ， 提 升 模型 的 泛 化 能 
120 ”3.2 模型 介绍 及 训练 
121 本 文 对 LeNet5 和 AlexNet 模型 的 结构 进行 了 组 合 优 化 , 并 在 其 基础 上 进行 了 模型 参数 的 
122 ”修改 ， 其 结构 如 图 7 所 示 。 将 卷 积 层 层 数 设 定 为 2， 卷 积 核 大 小 设 为 5*5。 每 个 卷 积 层 后 连 
123 ” 接 一 个 核 大 小 为 3*3、 步 长 为 2 的 最 大 池 化 层 ,最 后 连接 两 个 全 连接 层 , 并 通过 一 个 Softmaxt 
124 ” 层 来 确定 最 终 分 类 结果 。 在 全 连接 层 使 用 Dropout 方法 随机 忽略 了 一 部 分 神经 元 以 降低 模型 
125 ”过 拟 合 现象 ， 在 卷 积 层 后 使 用 ReLU 作为 激活 函数 。 
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输入 层 : Convl : Pooll : Conv2 : Pool2 : Local4: 192 个 神经 元 
100x100x3  100x100x64 50x50x64 50X50X64 25X25X64 B 


Localà: 384 个 神经 元 


5X5 卷 积 核 3X3 最 大 池 化 ”5X5 卷 积 核 3X3 最 大 池 化 全 连接 ” 全 连接 ”softmax 分 类 
Stride-l Stride-2 Stride-l Stride-2 
卷 积 卷 积 


softmax linear: 
6 类 


图 7 卷 积 神经 网 络 的 结构 


Fig7The structure of a convolutional neural network 


4. 分 类 模型 训练 

分 类 模型 训练 主要 目标 是 通过 对 训练 数据 集 的 拟 合 获得 神经 网 络 的 各 项 参数 权重 ， 以 实 
现 未 来 数据 的 分 类 预测 ， 主 要 包括 训练 数据 的 预 处 理 、 拟 合计 算 以 及 对 模型 效果 的 评价 。 
4.1 数据 预 处 理 
在 将 训练 数据 输入 至 分 类 网 络 前 ， 需 首先 对 数据 进行 合适 的 预 处 理 操作 ， 使 其 符合 模型 
输入 要 求 , 并 最 大 限度 的 包含 有 效 信 息 。 预 处 理 主 要 包括 数据 划分 、 兴趣 区 提取 、 数据 增强 、 
标准 化 四 个 部 分 。 
4.1.1 划分 训练 集 与 测试 集 

在 人 工 标注 好 的 6160 张 图 像 中 ，bluesky 类 为 557 张 ， 其 余 类 均 在 1000 张 以 上 ， 由 于 较 
大 数量 的 训练 集 是 防止 模型 过 拟 合 的 关键 因素 之 一 ， 因 此 选取 bluesky 类 别 的 图 像 500 张 ， 
其 余 每 类 图 像 1000 张 作 为 训练 集 ， 余 下 图 像 作 为 测试 集 。 训 练 集 和 测试 集 没有 交叉 图 像 ， 
测试 集 数 据 不 用 于 对 模型 的 训练 ， 仅 用 于 测试 模型 对 未 知 图 像 的 分 类 准确 度 。 
4.1.2 获取 感 兴趣 区 域 (region of interest, ROTI) 


将 所 有 分 辨 率 为 1000*625 的 原始 图 像 ( 如 图 8 左 ) 做 中 心 裁剪， 去 掉 两 端 无 关 信 息 ， 裁 剪 
后 图 像 分 辨 率 为 800*625 (如 图 8 右 ) 。 


图 8 对 全 天 图 像 进 行 ROI 裁剪 ， 左 图 为 裁剪 前 ， 右 图 为 裁剪 后 


Fig8 Crop all-sky images to get the ROI. The image on the left is before cropping. The image on the right is cropped 
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4.1.3 数据 增强 

模型 训练 过 程 中 ， 为 了 防止 过 拟 合 现象 的 发 生 ， 通 常 需要 输入 充足 的 数据 量 。 在 数据 量 
较 小 的 情况 下 , 可 以 通过 数据 增强 的 方法 , 在 保证 数据 特征 不 变 的 基础 上 对 图 像 数 据 进行 儿 
何 变换 ,以 增加 数据 量 。 主要 数据 增强 操作 包含 翻转 变换 、 缩放 变换 、 平移 变换 、 尺 度 变 换 、 
对 比 度 变 换 、 噪 声 扰动 、 颜 色 变 换 等 。 
结合 数据 特征 ， 本 研究 对 训练 集 采 取 如 下 数据 增强 的 方法 : 首先 对 训练 集 图 像 做 偏 移 处 
H, 分 别 以 右 下 ， 右上， 中 心 ， 左 下， 左上 为 坐标 端点 ， 裁 剪 大 小 为 700*550 的 区 域 。 再 通 
过 左右 翻转 操作 ， 将 数据 扩充 10 倍 (如 图 9)。 对 数量 较 少 的 无 云 晴 空 ， 增 加 上 下 翻转 过 程 。 
终 得 到 每 类 10000 张 图 像 ， 从 而 实现 训练 数据 各 类 样本 数量 均衡 。 


m 


图 9 数据 增强 操作 的 部 分 示例 


第 一 行 分 别 是 以 右 下 ， 右 上 ， 中 心 ， 左 下 ， 左 上 为 坐标 端点 裁剪 后 的 图 像 


第 二 行 是 对 第 一 行 图 像 进行 左右 翻转 操作 后 图 像 
Fig9Data augmentation example 
The first line is the image cropped at the lower right, upper right, center, lower left, and upper left. 
The second line is the image after the left and right flip operations of the first line. 

将 经 过 上 述 操作 的 图 像 分 辨 率 压缩 至 128*128， 减 小 图 像 尺度 ， 减 轻 模 型 训练 负担 。 之 
后 对 图 像 进 行 随 机 截取 ， 大 小 为 100*100， 相 当 于 将 数据 量 扩大 了 (128-100) 22784 倍 。 最 
后 进行 随机 上 下 翻转 ， 并 随机 改变 图 像 对 比 度 、 亮 度 、 饱 和 度 、 色 调 等 特征 ， 进 一 步 扩大 数 
据 量 。 实 验证 明 ， 使 用 上 述 数据 增强 手段 将 大 大 减轻 过 拟 合 现象 ， 提 升 模型 的 泛 化 能 力 。 此 
外 , 全 天 相机 中 拍摄 到 的 雪 龙 号 上 固定 景物 翻转 平移 后 将 作为 噪声 存在 ,有 利于 提高 模型 的 
泛 化 能 

对 测试 集 数 据 的 处 理 则 是 以 图 像 中 心 为 坐标 端点 ， 裁 剪 大 小 为 700*550 区 域 ， 再 压缩 至 
128*128， 最 后 做 中 心 裁剪 ， 得 到 分 状 率 为 100*100 的 图 像 ， 以 保证 测试 集 图 像 中 保留 足够 
多 的 有 效 信息 ， 并 和 训练 集 图 像 具 有 相同 的 输入 尺度 。 

4.1.4 标准 化 

在 图 像 输 入 到 网 络 前 进行 标准 化 处 理 ， 将 会 降低 输入 图 像 的 元 余 性 ， 使 得 网 络 对 图 片 的 

动态 范围 变化 不 敏感 。 主 要 有 如 公式 OO 操作 : 
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img. — mean 


img, — ——— — — (1) 


adjusted stadev 


其 中 imgi 为 图 片 的 RGB 三 通道 像素 值 , mean 分 别 为 三 通道 像素 的 均值 , adjustedstadev 
如 公式 (2) 所 示 


1.0 


so 


其 中 stddev 为 三 通道 像素 的 标准 差 ，NumElements 是 三 通道 各 自 的 像素 个 数 。 
训练 集 以 及 测试 集 数 据 经 过 标准 化 处 理 后 ， 输 入 到 模型 网 络 中 进行 训练 与 测试 。 


adjusted — max (staaev, E N 
stddev sqrt (N umE lements) 


4.2 实验 结果 与 分 析 
网 络 训练 过 程 中 ， 随 着 训练 批 次 的 增加 ， 损 失 值 〈loss) 逐渐 下 降 ， 准 确 率 (accuracy ) 
不 断 上 升 〈 如 图 10) 。 


o 
to 
B 


0.79 — train acc 
—— test acc 
0.76 --- train loss 
0.73 
0 50 100 150 200 250 
epoch 


图 10 训练 过 程 中 的 准确 率 与 损失 值 变 化 曲线 ， 横 轴 为 训练 迭代 数 ， 纵 轴 为 损失 值 和 准确 率 


Fig10 Loss and accuracycurve of training.The horizontal axis is the number of training epochs, and the vertical axis is the loss value 
and accuracy. 
在 选取 合适 训练 批 次 大 小 以 及 学 习 率 的 情况 下 ， 模 型 loss 值 下 降 平 稳 ， 在 训练 迭代 次 数 
Cepoch) 达到 50 之 后 ， 下 降 速 度 明显 放 绥 ， 模 型 逐渐 收敛 ， 当 epoch 达到 100 Hf, loss 逐 
渐 趋 近 于 0.15， 并 不 再 有 明显 下 降 。 训 练 集 以 及 验证 集 的 accuracy 整体 趋势 较为 相像 。 在 
epoch 达到 50 之 后 ,验证 集 accuracy 逐渐 趋 于 平稳 , 训练 集 accuracy 在 95% 与 100% 之 间 不 
断 波 动 ， 这 是 由 于 训练 集 图 像 在 输入 模型 前 进行 随机 的 对 比 度 ， 亮度 变换 等 操作 ， 导 致 在 当 
前 迭代 次 数 下 , 模型 并 没有 完全 拟 合 所 有 可 能 出 现 的 图 像 数据 .训练 在 epoch 达到 220 之 后 ， 
验证 集 accuary 稳定 为 95.5%， 不 再 发 生变 化 ， 表 示 模 型 已 经 收敛 。 
由 于 样本 种 类 较 多 ， 并且 存 在 数量 不 均衡 的 特点 ， 因 此 ,我 们 采用 精确 率 (Precision) 、 
AEZ (Recall) 以 及 Fl-Score 来 进行 分 类 效果 的 评判 。 精 确 率 表示 预测 为 正 的 样本 里 有 多 
> 是 真正 的 正 样本 ， 即 预测 为 正 样本 有 两 种 可 能 ， 一 种 是 将 正 类 预测 为 正 类 (TPO ， 另 一 


I 
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种 是 将 负 类 预测 为 正 类 (FP) ， 则 精确 率 P 由 公式 (3) Xem: 
TP 
P = pF FP (3) 
召回 率 是 针对 原 有 样本 而 言 的 ， 它 表示 的 是 样本 中 的 正 例 有 多 少 被 正确 预测 了 ， 同 样 也 
有 两 种 可 能 ， 一 种 是 把 原来 的 正 类 预测 成 正 类 〈7P) ， 另 一 种 就 是 把 原来 的 正 类 预测 为 负 
X (FN) ， 即 召回 率 尺 由 公式 〈4) 表示 : 
TP 
R-TPIFN (4) 


Fl-ScoreCF7) 是 精确 率 和 召回 率 的 调和 均值 , 相当 于 精确 率 和 召回 率 的 综合 评价 指标 ， 
可 由 公式 C 推导 : 
2 1 1 


ECPR (5) 
变换 后 FI 可 由 公式 (6) 表示: 
2TP 
HT TP FFP FEN (6) 


各 项 类 别 的 精确 率 、 召 回 率 和 Fl1-Score 如 图 11 所 示 : 


Classification report 


bluesky (57) 


dark (119) 


cloudimage (115) 


Classes 


rain snow (117) 


Precision Recall Fl-score 
Metrics 


图 11 各 项 类 别 的 精确 率 ， 召 回 率 和 FI-Score 
FiglIPrecision, Recalland F1-Score for each category. 
由 图 11 可 见 ,分 类 模型 在 各 个 类 别 都 取得 了 非常 好 的 效果 , 其 分 类 精度 、 召 回 率 、Fl-score 
均 达 到 了 90% 以 上 ， 绝 大 多 数 类 别 均 在 95% 以 上 。 


5， 基 于 丽江 观测 站 全 天 相机 数据 集 的 模型 验证 

5.1 验证 过 程 

为 了 验证 模型 的 泛 化 能 力 ， 本 研究 采用 了 丽江 观测 站 全 天 相机 数据 集 对 模型 的 分 类 能 
进行 了 验证 。 在 验证 数据 进入 分 类 网 络 前 ， 同 样 需要 对 数据 进行 预 处 理 ， 全 天 空地 基 云 图 拍 
摄 过 程 中 ， 由 于 拍摄 设备 ， 相 机 参数 的 不 同 ， 图 像 太 度 也 会 有 所 差异 。 对 图 像 进 行 预 处 理 操 
VE, 使 得 验证 数据 集 在 输入 模型 前 尺度 信息 尽 可 能 与 训练 数据 一 臻 ,可 以 提高 模型 对 数据 的 
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分 类 准确 率 。 
本 研究 对 丽江 观测 站 的 5208 张 全 天 云图 数据 进行 了 人 工 标注 ,其 中 dark 类 别 4257 张 、 


bluesky 类 别 549 张 、overlight 类 别 519 张 、cloudimage 类 别 321 张 、overcast 类 别 115 张 、 


rain. snow 类 别 46 张 。 
原始 图 像 ( 如 图 12 左 ) 分 辨 率 为 720*480， 以 图 像 中 心 为 基准 ， 截 取 400*320 大 小 图 像 
(如 图 12 右 ) ， 获 取 与 训练 数据 近似 长 宽 比 的 有 效 信息 。 之 后 再 压缩 至 128*128， 最 后 做 
中 心 裁剪 ， 得 到 分 辨 率 为 100*100 的 图 像 ， 保 持 输入 尺度 与 训练 集 图 像 一 致 。 经 过 4.1.4 中 
的 标准 化 处 理 后 ， 输 入 到 模型 中 进行 分 类 。 


g Obs 


图 12 丽江 站 全 天 相机 数据 预 处 理 样 例 ， 左 图 为 原始 图 像 ， 右 图 为 裁剪 后 的 图 像 


Fig12All-sky images classification example of Lijiang station, the left is the original picture and the right is the cropped image. 
5.2 预测 结果 及 分 析 
模型 对 验证 集 各 项 类 别 分 类 结果 的 精确 率 、 召 回 率 、 和 Fl-Score 如 图 13。 
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图 13 验证 集 数据 各 项 类 别 的 精确 率 ， 召 回 率 和 FI-Score 


Fig13 Precision, Recall and FI-Score for each category of validationset. 
结果 显示 ， 模 型 在 全 新 数据 集 上 有 着 不 错 的 表现 ， 对 数量 最 多 的 dark 类 判定 精准 ， 并 且 
在 cloudimage, bluesky, overlight, overcast 之 间 也 有 较 好 的 区 分 能 力 。 但 对 rain. snow 类 划 
分 结果 较 差 ， 并 且 bluesky 的 召回 率 、overcast 的 召回 率 、cloudimage 的 准确 率 相 对 较 低 。 
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从 分 类 结果 的 混 清 矩 


阵 〈 图 14) 中 可 以 看 出 ，rain_snow 大 部 分 预测 为 overlight， 误 判 图 
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overcast 0 68 38 0 0 9 
百 overlight 1 14 576 7 10 6 
E-] 
S 
v 
5 
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predicted label 


图 14 测试 集 数据 分 类 的 混淆 矩阵 


Fig14 Confusion matrix for test set data 


像 如 图 15 所 示 , WAE 


可 能 是 误 判 的 主要 原因 。 此 外 ， 测 试 集中 rain. snow 类 雨滴 数量 相 较 训 乡 


an 
EI 


是 导致 rain_snow 类 分 类 准确 度 整 体 较 低 的 主要 原因 。 


2016-12-07 16:30:03 Lijiang Ob: 


由 图 14 可 知 
测 为 cloudimage 


有 较 大 差异 ， 医 


，bluesky 召回 率 ，cloudimage 准确 率 较 低 的 主要 原因 是 


图 15 误 判 为 overlight 类 的 rain snow 类 图 像 


Figl5 Rain snow misjudged as overlight 
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一 部 分 bluesky 被 预 
, 典型 误 判 图 像 如 图 16, 根据 对 图 像 的 观察 , 这 些 图 像 与 训练 集中 的 bluesky 


" 


像 整 体 偏 


暗 ， 并 且 存 在 较 明显 三 个 污点 ， 可 能 是 导致 误 类 


j 的 原因 


2016-12-17 18:40:04 Lijiang Observatory 2016-12-17 18:56:03 


图 16 误 判 为 cloudimage 类 的 bluesky 类 图 像 


Fig16 bluesky misjudged as cloudimage 


o 


258 此 外 overcast 的 召回 率 较 低 。 由 图 14 可 知 ，overcast 主要 误 判 为 overlight， 典 型 误 判 图 
259 像 如 图 17 所 示 ， 误 判 图 像 亮 度 较 高 ， 整 体 特征 与 训练 集中 overlight 类 较为 相近 。 区 别 主要 
260 ”是 由 于 相机 拍摄 时 的 参数 设置 不 同 所 致 。 


261 
262 图 17 误 判 为 overlight 类 的 overcast 类 图 像 
263 Fig17 overcast misjudged as overlight 
264 


265 ”6. 总 结 与 展望 

266 本 文 提出 了 可 用 于 天 文选 址 的 基于 卷 积 神经 网 络 的 全 天 空地 基 云 图 分 类 处 理 方法 , 使 用 雪 
2607. 龙 号 全 天 空地 基 云 图 数据 集 进 行 了 分 类 模型 的 训练 , 并 使 用 丽江 天 文 观测 站 全 天 空地 基 云 图 
268 ”数据 对 模型 的 泛 化 能 力 进行 了 验证 , 证 明了 模型 在 不 同 采集 设备 、 不 同 采集 地 区 及 不 同 尺度 
269 ”的 全 天 空地 基 云 图 数据 集 上 , 均 能 够 具有 较 好 分 类 效果 , 即 模型 具有 较 强 的 泛 化 能 力 以 及 良 
270 ”好 的 可 移植 性 。 该 方法 实现 了 任意 地 区 地 基 云 图 的 自动 化 分 类 , 将 极 大 的 减少 云 量 自动 化 处 
271 ” 理 的 前 期 工作 ， 降 低 天 文选 址 过 程 中 图 像 分 类 的 人 工 成 本 。 

272 全 天 相机 拍摄 过 程 中 ， 由 于 硬件 设备 ， 拍 摄 参数 ， 气 象 条 件 ， 外 部 环境 等 因素 的 影响 ， 
273 图像 质 量 差异 巨大 ， 虽 然 雪 龙 号 数据 类 型 丰富 ， 履 盖 性 强 ， 但 是 从 验证 结果 可 以 看 出 ,训练 
274 ” 集 没 有 完全 包含 所 有 可 能 出 现 的 数据 类 型 ， 导 致 部 分 数据 种 类 误 判 ， 如 误 判 为 overlight 类 
275 ”的 rain_snow 图 像 ， 误 判 为 cloudimage 的 bluesky 类 。 

276 针对 以 上 问题 ,可行 的 方法 是 使 用 迁移 学 习 技 术 基 于 更 多 样 化 的 数据 进行 分 类 模型 的 训练 ， 
277 ”可 以 有 效 提高 分 类 精度 ， 使 得 本 分 类 方法 在 其 它 全 天 空地 基 云 图 数据 集 上 有 更 好 的 表现 。 
278 
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Abstract:Cloud volume is one of the first factors to consider in astronomical site selection. 
Full-sky cloud images, which are captured by the all-sky camera, reflect local cloud information in 
real time. Therefore, it is one of the main data source for automatic classification of cloud volume. 
Automatic classification of all-sky cloud map is based on image quality, application background 
and other factors. It will reduce the labor cost in the data filtering process, and improve the 
accuracy of cloud volume detection. This paper implements an automatic classification method 
based on convolutional neural network classification model for full-sky cloud images, to provide 
an important aid for astronomical site selection. The classification model training is carried out by 
using the all-sky camera data of the XueLong polar research vessel, and the model are also tested 
by using the data of Lijiang Observatory, CAS. Preferable classification results are obtained, and 


it is proved that the method has good transferability in different data sets. 
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